Consulta el repositorio de Libro de recetas de Gemma para ver ejemplos de generación y ajuste. Más información

Se usó la API de Cloud Translation para traducir esta página.

Ajuste del modelo de Gemma

El ajuste fino de un modelo de inteligencia artificial (IA) generativa, como Gemma, modifica el comportamiento del modelo. Por lo general, ajustas Gemma con el objetivo de mejorar su rendimiento en una tarea o un dominio específicos, o para cumplir mejor un rol, como el servicio de atención al cliente. Los modelos de Gemma se lanzan con ponderaciones abiertas, lo que significa que puedes modificarlas, lo que cambia el comportamiento del modelo. Los pasos generales para ajustar un modelo de Gemma son los siguientes:

Elige un framework
Recopila datos
Ajusta y prueba el modelo
Implementa el modelo

Elige un framework

Los modelos de Gemma son compatibles con una variedad de frameworks de ajuste de IA. Cada framework ofrece varias ventajas y, por lo general, se limita a un formato de modelo específico. Estas son guías para ajustar modelos de Gemma con varios frameworks:

Keras con LoRA
Biblioteca de Gemma para JAX
Hugging Face
GKE de Google Cloud (multi-GPU con transformadores de HF)
Unsloth
Axolotl
Keras con ajuste distribuido

Asegúrate de que el framework que elijas admita como salida el formato de modelo de implementación que deseas, como el formato de Keras, Safetensors o GGUF.

Recopilar datos

El ajuste del modelo requiere datos. Los datos de ajuste suelen constar de pares de datos de entrada con la respuesta esperada. Hay muchos conjuntos de datos públicos disponibles en línea para el entrenamiento en varias tareas o resultados. Por ejemplo, si deseas entrenar un modelo de Gemma para traducir descripciones de piezas de automóviles a números de piezas, tu conjunto de datos podría incluir lo siguiente:

training_data = [
  {"input_text": "Part number for A4 brake caliper", "output_text": "4M0615107BS"},
  {"input_text": "Part number for Beetle fuel pump", "output_text": "6A127026H"},
  {"input_text": "Part number for Camaro cylinder head", "output_text": "12711770"},
]

Si deseas que un modelo de Gemma realice un conjunto específico de tareas o roles, por lo general, debes compilar un conjunto de datos que demuestre varias variaciones de esa tarea. La cantidad de datos que necesitas para ajustar un modelo depende de tus objetivos, en particular, de cuánto cambio de comportamiento deseas que tenga el modelo y qué tan bien deseas que funcione en función de la tarea que se debe realizar y el nivel de variación en los datos de entrada.

En general, debes comenzar con un conjunto pequeño de datos para ajustar la tarea, ajustar los parámetros de entrenamiento y agregar datos hasta que logres el rendimiento de la tarea que satisfaga tus necesidades. Algunas de nuestras aplicaciones de ejemplo muestran que puedes influir en el comportamiento de un modelo de Gemma con tan solo 20 pares de instrucciones y respuestas. Para obtener más detalles, consulta Cómo crear un asistente de IA de correo electrónico empresarial con Gemma y Cómo realizar tareas en idiomas hablados con Gemma.

Ajusta y prueba el modelo

Una vez que tengas un framework de ajuste y datos de ajuste, puedes comenzar el proceso de ajuste del modelo de Gemma. Cuando realizas la optimización, tienes algunas opciones para realizarla, lo que afecta los recursos que necesitas para completarla. También debes tener un plan de pruebas para tu modelo ajustado para evaluar si funciona de la manera que deseas después del ajuste.

Ajuste eficiente de parámetros

Cuando ajustas un modelo de ponderaciones abiertas, como Gemma, tienes la opción de ajustar todos los parámetros del modelo o usar una técnica de ajuste eficiente de parámetros que requiere menos recursos y que actualiza un subconjunto de ellos. Un enfoque de ajuste completo significa que, a medida que aplicas tus datos de ajuste, calculas ponderaciones nuevas para todos los parámetros del modelo. Este enfoque requiere un procesamiento intensivo y una memoria intensiva, ya que realizas estos cálculos para miles de millones de parámetros. El uso de enfoques de ajuste menos intensivos en recursos, llamados ajuste de parámetros eficiente (PEFT), incluidas técnicas como el ajuste del adaptador de bajo rango (LoRA), puede producir resultados similares con menos recursos de procesamiento. Para obtener detalles sobre cómo realizar el ajuste con menos recursos con LoRA, consulta Cómo ajustar modelos de Gemma en Keras con LoRA y Cómo ajustar modelos de Gemma en Hugging Face.

Prueba de modelos ajustados

Una vez que hayas ajustado un modelo para una tarea específica, debes probar su rendimiento en comparación con el conjunto de tareas que deseas que realice. Deberías probar tu modelo con tareas o solicitudes para las que no se entrenó específicamente. La forma en que pruebes tu modelo ajustado depende de la tarea que quieras que realice y de la precisión con la que administras las entradas y salidas del modelo. Una forma común de administrar las pruebas del modelo generativo es usar casos de éxito, fallas y límite:

Pruebas de éxito: Solicitan que el modelo ajustado siempre pueda realizar correctamente.
Pruebas de fallas: Solicitan que el modelo ajustado no siempre pueda realizar una tarea o que se niegue explícitamente a realizarla, si se solicita.
Pruebas de límites: Son solicitudes que el modelo ajustado debería poder realizar si se encuentran dentro de un límite definido o un conjunto de límites de comportamiento de salida aceptable.

Cuando pruebes fallas o condiciones límite para tu aplicación de IA generativa, también debes aplicar los enfoques, las técnicas y las herramientas de seguridad de la IA generativa como se describe en el Kit de herramientas de IA generativa responsable.

Implementa el modelo

Después de completar el ajuste y las pruebas, es hora de implementar el modelo. Por lo general, puedes consultar la documentación del framework que elegiste para saber cómo implementar un modelo ajustado.

Si implementas un modelo con pesos ajustados de LoRA, ten en cuenta que, con esta técnica, por lo general, se implementan ambos, el modelo original y sus pesos con los pesos de LoRA como una capa de cálculo adicional para el modelo.